数据挖掘 part_1

3 mins.3.7k1143

前言

写在前面,本系列出于自身复习资料整理以及帮助周围同学应对考试的目的创建,可能部分内容并不完全正确和清晰,希望见谅,本系列计划于2024-12-29号前全部完成,针对部分可以手算的内容将给出一定例题。文章内容是作者在课件以及实践的基础上所自我总结的,再次提醒可能存在一些偏颇。


数据挖掘,一种计算机与数学的交叉科目,旨在通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等方法来实现对数据价值的深度挖掘,从数据中提取到信息,进而上升到知识。

数据挖掘是问题导向的,所以挖掘工作的步骤以定义问题为起始,最终回到实际业务场景中去。

详细步骤:

1.定义问题:明确挖掘工作的目的是什么,了解相关的业务知识和数据。

2.准备数据:根据问题收集数据,建立数据库,对数据进行描述、分析和选择。更进一步,对数据进行清洗以及数据转换,完成特征工程的部分。

3.建立模型:根据数据和问题选择合适的模型。

4.评价模型:对上一部得到的模型(们)进行结果分析和模型评价。从测试集中得到的数据准确率只对建立模型的数据有意义,需要进一步了解错误的类型和由其所造成的影响。一个有效的数据模型并不一定是正确的模型。造成这一现象的原因主要是因为建立模型过程中的各种假设因素,所以,需要在现实世界对模型进行测试,先在小范围中测试,当结果符合预期后,再向大范围推广。这种demo的思想在实际工作中比较有用,不要妄想把所有数据一股脑塞进去,然后等个一天就能跑出来一个满意的结果。

5.模型实施


数据挖掘方法

数据挖掘的任务主要分为两大类,描述以及预测:

1. 描述(Description)

描述方法旨在总结数据的内在结构和特点,常见的技术包括:

  • 聚类(Clustering):将相似的对象归为一组,例如用户分群。
  • 关联分析(Association):发现数据项之间的关系,如购物篮分析。
  • 序列分析(Sequence Analysis):分析时间序列或事件序列的规律。

2. 预测(Prediction)

预测方法则专注于利用已有数据预测未来或未知的结果,常见技术包括:

  • 回归(Regression):如预测房价。
  • 分类(Classification):如垃圾邮件检测。
  • 序列分析(Sequence Analysis):例如股票价格预测。
  • 异常检测(Outlier Detection):发现数据中的异常点。

按照学习方式的分发也可以分为监督学习和非监督学习:

对于监督和非监督的例子可以用人的学习行为来类比,监督式学习类似老师向你提供了很多例题以及答案,你通过对例题的学习形成了一定的模型,进而可以在未来对更多没有参考答案的题进行求解。
而非监督学习就是把一堆事实摆在你眼前,让你从中获取知识,而没有人告诉你这些知识的正确性与否。

1. 监督学习(Supervised Learning)

模型通过训练数据学习输入与*标签*的映射关系,通俗来说就是告诉模型训练集的特征以及对应的标签,形成一定的模型,这样就可以提供业务中新出现的特征让模型来预测标签(label):

常用的监督学习:

  • 回归:预测连续值,如房价。
  • 分类:预测离散类别,如垃圾邮件检测。

2. 非监督学习(Unsupervised Learning)

模型*无需标签*,通过数据的内在结构进行学习,无需标签意味着可能不存在“正确答案”,没有提前预设好的label,而是让模型根据数据的特点“生成”label :

常用的非监督学习:

  • 聚类:如K-means。
  • 降维:如主成分分析(PCA)。

简单来说,提前打好标签就是监督,没有就是非监督。

在下面的内容中我们将针对监督学习进行展开。


模型评估

数据挖掘模型的表现如何,离不开科学的评估方法。模型评估的核心在于理解和解决**过拟合**与**欠拟合**问题。过拟合问题和欠拟合问题通常是在监督学习范围内提及的。

1. 过拟合与欠拟合

  • 过拟合(Overfitting):模型在训练数据上表现良好,但在测试数据上效果较差。继续上文,人的学习的例子,过拟合意味着你对例题的学习效果很“好”,但并不是由于你真正掌握了例题的知识,而是你“记住了”例题的方法和数字。却在考试时遇见新的数字表现很差。
    这意味着模型缺少**泛化**能力,不能解决新的问题,模型不可用(毕竟你训练模型的目的是为了用模型去预测新的数据)
    • 解决方法:增加数据量、正则化(L1/L2)(在part—4会更加详细介绍)、简化模型。
  • 欠拟合(Underfitting):模型在训练和测试数据上均表现不佳。很简单的说法就是“例题太少了,没学会”。
    • 解决方法:增加模型复杂度、延长训练时间、引入更优特征。

公式图片

此外,模型的偏差(Bias)与方差(Variance)分析有助于进一步理解模型的行为。

  • 方差 (variance):模型对训练数据的敏感程度。高方差意味着模型过度依赖训练数据,可能导致过拟合。
  • 偏差 (bias):模型对数据模式的预测能力。高偏差意味着模型过于简单,可能导致欠拟合。

验证方法与指标

在模型训练过程中,验证方法与性能指标的选择尤为重要。

验证方法

  • 留出法(Holdout Method):将数据划分为训练集和测试集。
  • 交叉验证(Cross-Validation):常用K折交叉验证,每个子集都被用作一次测试集。
  • 时间序列验证:在时间序列预测中,验证集应始终晚于训练集,以保持时间顺序。

公式图片

分类模型的检验指标

  • 准确率(Accuracy):衡量模型整体预测正确的比例。
  • 精确率(Precision):关注预测为正例的结果中实际为正例的比例。
  • 召回率(Recall):关注实际正例中被正确预测的比例。
  • F1分数(F1-Score):精确率和召回率的调和平均。

在实际问题中应该根据问题要求决定重点关注哪个指标,如:研究预测财务造假问题时,如果以造假为正例,则应该重点关注召回率,即是否尽可能抓住所有造假的样本。

预测模型的检验指标

  • 均方误差(MSE):评估预测值与实际值的差异平方平均值。
  • 均方根误差(RMSE):MSE的平方根,更直观。
  • 平均绝对误差(MAE):预测值与实际值的绝对误差平均值。
  • 平均绝对百分比误差(MAPE):误差相对于实际值的百分比。

公式图片

其中MAPE由于与预测值的数量级无关,因而更能直观快速的让人了解到你的模型的表现。

注意事项:

在解决一些预测问题时,我们可能会发现对预测变量( y )进行一定变化会有效提升模型表现(如取对数 lny ,这很有可能是由于在总体样本中y的分布具有明显的偏态特征)在计算评价指标时,应将预测值映射回原本y的坐标上进行计算(将lny计算回y)这样才能更好的证明模型的有效性。在实践中,这样的操作意味着对y的映射只需要对训练集采用,而测试集的y不需要映射到lny。


模型选取与优化

面对多种模型,如何选择和优化是关键。

验证曲线(Validation Curve)

验证曲线是一种通过调整模型的超参数来评估模型性能的方法,用于分析模型在不同超参数取值下的表现。

  • 目的: 了解超参数对模型的影响,判断模型是否过拟合或欠拟合。
  • 工作原理
    • 固定其他参数,仅调整一个超参数的值。
    • 记录训练集和验证集上的性能指标(如准确率、误差等)。
    • 绘制超参数值与性能指标的曲线。
  • 如果训练集性能高而验证集性能低,说明模型过拟合。
  • 如果训练集和验证集性能都低,说明模型欠拟合。
  • 找到两者之间的平衡点(即最佳超参数值)。

网格搜索(Grid Search)

系统地遍历所有可能的超参数组合,找到性能最优的配置。

  • 目的: 寻找模型的最佳超参数组合以提升性能。
  • 工作原理
    • 定义超参数及其可能的取值范围。
    • 对每一种参数组合进行交叉验证,计算模型的平均性能。
    • 选择性能最优的参数组合。

提升图(Lift Chart)

用于分析分类模型在特定目标群体中的预测效果,尤其适合营销和信用评分等场景。

  • 目的: 衡量模型在特定目标群体上的预测能力相对于随机选择的提升程度。
  • 工作原理
    • 将数据按预测概率排序,从高到低分成若干组(如10组)。
    • 计算每组中目标变量(如正例)的比例,并与随机选择的基线比例进行比较。
    • 绘制提升曲线。
  • 提升图的曲线越陡峭,模型越能有效区分目标群体。

ROC曲线

通过绘制真正例率(TPR)和假正例率(FPR)的关系曲线,全面评估模型分类能力。曲线下的面积(AUC)越接近1,模型性能越好。

  • 目的: 通过不同阈值下的模型表现,全面评估模型的分类能力。
  • 工作原理
    • 计算不同阈值下的 真正例率 (TPR) 和 假正例率 (FPR)。
    • 绘制TPR与FPR的关系曲线。
    • 曲线下的面积 (AUC) 用于量化模型性能,AUC值越接近1,模型性能越好。
  • 如果ROC曲线接近对角线,说明模型性能接近随机猜测(说明结果较差)。
  • AUC值可以用来比较不同模型的优劣。越陡峭的AUC曲线越好

上一篇更回味

  • LaTeX

      LaTeX入门-安装和配置环境

      什么是LaTexLaTeX 是一种基于排版系统 TeX 的文档准备工具,常用于生成高质量的学术论文、书籍、报告、幻灯片等。它以文本文件的形式保存内容和格式控制代...

    • 下一篇更精彩

    • 运筹学

        运筹学基本定理及其证明

        1.线性规划在这节中我们规定线性规划的标准型为: 其中: 是一个 矩阵,且 。 规定:其中: 是 的一个 满秩子矩阵,并且其列向量记作 。称 为基。 定理1-1...

      • 评论区

        你认为这篇文章怎么样?
        • 2
        • 0
        • 0
        • 0
        • 0
        • 0
        3 评论
        • 按正序
        • 按倒序
        • 按热度
        Thanafox博主置顶2024-12-28

        芜湖,评论施工完毕,如果发现有任何披露可以在评论反馈呦。weibo_dog_consider
        并不需要登录,随便起个昵称就能发布评论

        Tim Cook2024-12-30

        When to join our company?

        Xof2024-12-29

        技术太好啦,好专业,太喜欢啦啦啦啦啦

        Powered by Waline v2.15.8
        感谢您阅读: 「数据挖掘 part_1 | Thanafox's Blog」